阿里巴巴千問AI眼鏡S1重大升級,推出主動服務能力,能根據天氣、時間、日程提供個性化提醒,如出門時提示帶傘。同時新增打車、閃購、行程規劃等生活服務功能,提升用戶出行便捷性。
Adobe發佈Photoshop和Lightroom重大更新,將生成式AI擴展至3D空間處理。核心亮點是“旋轉對象”工具,允許用戶在3D空間中實時旋轉、傾斜或翻轉2D素材,自動調整透視角度和環境視覺邏輯,顯著提升合成創作效率與效果。
Anthropic宣佈Claude與Adobe、Blender等八大創意軟件深度互聯,通過新增連接器將AI能力融入平面設計、3D建模和音頻製作流程。在視覺創作領域,與Adobe的整合尤爲突出,創作者可直接在常用軟件中調用Claude,提升工作效率。
螞蟻靈光App上線“體驗世界模型”功能,成爲業界首個移動端AGI產品。用戶上傳一張圖片,即可在手機上最長60秒探索3D世界,支持手遊式視角操控,從觸發到探索僅需秒級。這是業內首次在端側實現世界模型,具備分鐘級長時一致性與實時交互能力。
提供AI生成的庫存照片、3D圖標和模型,可免費瀏覽下載並使用AI編輯。
用AI瞬間生成2D、2.5D和3D房屋佈局,簡單易用的房屋設計工具
Formy 3D可將照片、文本快速轉化為專業3D模型
Triverse AI可通過文本和圖像一鍵生成帶PBR貼圖的3D模型,免費試用
Tencent
-
輸入tokens/百萬
輸出tokens/百萬
24
上下文長度
$0.8
$2
32
Chatglm
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全開源全模態模型,採用全模態 3D RoPE 和動態容量專家混合架構,顯著提升了以語言為中心的多模態理解、推理和生成能力。該版本集成了全模態理解以及音頻和圖像生成能力。
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
Ashmotv
animat3d_style_wan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻生成,可為圖像生成帶來獨特的3D動畫風格效果。該模型基於Wan2.2-T2V-A14B基礎模型進行微調,支持多種主流AI平臺使用。
facebook
MapAnything是一個端到端訓練的Transformer模型,能夠以多種模態作為輸入,直接回歸場景的分解度量3D幾何結構。該模型支持超過12種不同的3D重建任務,包括多圖像SfM、多視圖立體視覺、單目度量深度估計等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
yslan
STream3R是一種基於因果Transformer的可擴展序列3D重建模型,將點雲圖預測重新定義為僅解碼器的Transformer問題。它引入流式處理框架,利用因果注意力高效處理圖像序列,能夠很好地泛化到各種具有挑戰性的場景,包括傳統方法經常失效的動態場景。
nvidia
ESM-2是NVIDIA基於TransformerEngine優化的蛋白質語言模型,能夠從氨基酸序列預測蛋白質3D結構。該模型採用掩碼語言建模目標訓練,在NVIDIA GPU上具有更快的訓練和推理速度。
ilkerzgi
這是一個LoRA模型,可將普通圖像轉換為具有黑色背景和3D視角的金屬風格圖像。
lhjiang
AnySplat是一種先進的3D高斯散點渲染模型,能夠從不同視角的圖像高效生成高質量的3D場景。該模型具有快速推理能力和良好的泛化性能,為3D重建和渲染提供了創新的解決方案。
tencent
混元3D-2是一款支持圖像到3D、文本到3D轉換的工具,為3D內容生成提供了強大的解決方案。
shakamone
TRELLIS是一個基於圖像條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D生成。
davidleiva4999
TRELLIS的文本條件版本,採用XL大模型規模,是一款強大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
ImrozeAslamMalik
LGM是一個整合了多視角擴散模型的圖像轉3D工作流,能夠從單張圖像生成高質量3D內容。
ImrozeAslam
混元3D 2.0是一個先進的大規模3D合成系統,用於生成高分辨率帶紋理的3D資產。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-2B-Instruct是先進的多模態大語言模型,相比前代有更出色的多模態感知和推理能力,擴展了工具使用、GUI代理、工業圖像分析、3D視覺感知等方面。採用原生多模態預訓練方法,將語言和視覺學習整合到單個預訓練階段。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
Surn
TRELLIS圖像條件版本是一個大型3D生成模型,能夠從圖像生成3D內容。
BlenderMCP通過MCP協議將Blender與Claude AI連接,實現AI輔助3D建模與場景控制
Vestige是一個基於認知科學的AI記憶引擎,通過實現預測誤差門控、FSRS-6間隔重複、記憶夢境等29個神經科學模塊,為AI提供長期記憶能力。包含3D可視化儀表板和21個MCP工具,完全本地運行,無需雲端。
Blender MCP VXAI 是一個強大的集成工具,允許用戶通過自然語言控制 Blender,實現 3D 建模、動畫和場景的創建與修改。它簡化了複雜操作,並支持即時導出到項目中。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口項目,支持通過自然語言生成3D資產並導入Blender。
FreeCAD MCP是一個通過Claude Desktop控制FreeCAD的插件,支持從2D圖紙創建3D模型等多種設計功能。
RhinoMCP是一個連接Rhino 3D建模軟件與AI代理的工具,通過Model Context Protocol實現雙向交互,支持3D對象操作、文檔檢查和腳本執行。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口工具,支持通過自然語言生成3D資產並導入Blender。
MCP 3D打印機服務器是一個連接Claude與多種3D打印機管理系統的中間件,支持OctoPrint、Klipper、Duet等主流平臺,提供打印機控制、文件管理及高級STL模型處理功能。
Trellis MCP是一個連接AI助手與Trellis 3D生成模型的接口服務,支持通過自然語言快速生成3D資產並導入Blender。該項目基於開源模型,需自行部署API後端,具有快速、免費的特點,但存在穩定性風險。
MCP STL 3D浮雕生成器是一個將2D圖像轉換為3D浮雕模型的工具,支持控制模型尺寸、添加基座和深度反轉等功能,適合3D打印和渲染。
HoudiniMCP是一個連接Houdini與Claude AI的第三方集成工具,通過MCP協議實現AI輔助3D創作。
SketchupMCP通過模型上下文協議(MCP)將Sketchup與Claude AI連接,實現雙向通信和3D建模控制。
一個基於模型上下文協議(MCP)的服務器,為Claude Desktop提供Klipper 3D打印機固件的本地化文檔搜索和配置查詢功能,支持即時同步官方文檔庫並建立全文檢索索引。
Unity AI ProBuilder是一個基於MCP協議的AI驅動3D建模工具,通過自然語言命令在Unity編輯器中創建和編輯可編輯網格,支持快速原型設計和程序化幾何生成。
SMMS項目構建了一個基於語義地圖的MCP服務器,提供3D實例對象管理功能,包括數據庫操作、RAG檢索和認知拓撲圖生成。
MCP 3D打印服務器是一個連接Claude與多種3D打印機管理系統的協議服務器,支持OctoPrint、Klipper等多種打印機API,提供文件管理、打印控制和高級STL模型處理功能。
Blender與本地AI模型集成的開源項目,通過自然語言控制3D建模。
Rhino MCP服務器項目,實現Claude AI與Rhino 3D的交互,支持3D對象的創建與操作
SketchupMCP是一個通過模型上下文協議(MCP)將Sketchup與Claude AI連接的整合工具,實現AI輔助3D建模和場景控制。
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。